强化学习已被证明可以在像视频游戏这样的复杂领域中超越最好的人类。但是,在自主驾驶所需量表上进行强化学习的经验极为困难。建立大规模的增强学习系统并在许多GPU上分配它是具有挑战性的。在现实世界中进行培训期间的收集经验。因此,需要有效且现实的驾驶模拟器,该模拟器使用现实世界中的大量数据。我们将这些功能融合在一起,并进行大规模增强学习实验,以进行自动驾驶。我们证明,我们的政策表现随规模而提高。与最先进的机器学习对自动驾驶的政策相比,我们最好的政策将失败率降低了64%,同时证明驾驶进度的速度降低了25%。
![arxiv:2312.15122v4 [cs.lg] 2024年11月5日PDF文件第1页](/bimg/2/289591f0fe935260f652d66f61b3bf5674dee17d.webp)
![arxiv:2312.15122v4 [cs.lg] 2024年11月5日PDF文件第2页](/bimg/3/3d07ef0b36bc9736c59ac410bae162c349c0cf71.webp)
![arxiv:2312.15122v4 [cs.lg] 2024年11月5日PDF文件第3页](/bimg/8/8fa0adbe0ce2009ab9b1665c8eeb86daa0359332.webp)
![arxiv:2312.15122v4 [cs.lg] 2024年11月5日PDF文件第4页](/bimg/0/02860601e8d76178bd0a0929e4d09614412105ec.webp)
![arxiv:2312.15122v4 [cs.lg] 2024年11月5日PDF文件第5页](/bimg/d/d510f9b2d9f616a3de895ebc72844d71ebe217de.webp)
